package cn.com.dmg.myspringboot.file.pdf;

import java.io.File;
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

/**
 * @description: 获取pdf里的内容
 * @author: libai
 * @create: 2024-04-09 14:43
 */
public class PdfContentUtil {
    public static void main(String[] args) {
        String path = "C:\\Users\\13117\\Desktop\\OpenAI-Sora技术拆解报告+中英对照原稿.pdf";
        pdfContent(path);
    }

    public static void pdfContent(String path) {
        try {
            // 加载PDF文件
            PDDocument document = PDDocument.load(new File(path));

            // 创建PDFTextStripper实例
            PDFTextStripper pdfStripper = new PDFTextStripper();

            // 提取文本内容
            String text = pdfStripper.getText(document);

            // 输出文本内容
            System.out.println("PDF Content:\n" + text);

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
